灾害智能识别-Random Forest算法

1.什么是随机森林

​ 随机森林是一个高度灵活的机器学习方法,拥有广泛的应用前景,从市场营销到医疗保健保险。 既可以用来做市场营销模拟的建模,统计客户来源,保留和流失。也可用来预测疾病的风险和病患者的易感性。随机森林算法应用范围广泛。

​ 随机森林算法通过集成学习的思想将多棵树进行集成,它的基本单元是决策树,其本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。针对分类问题,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,从而对 Bagging (Bootstrap aggregating)算法 进行实现。

2.相关知识

2.1 集成学习

​ 集成学习通过建立多个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。

随机森林是集成学习的一个子类。

2.2 信息、熵以及信息增益

​ 香农:信息是用来消除随机不确定性的东西。对于机器学习中的决策树而言,如果带分类的事物集合可以划分到多个类别中,则某个类$(x_i)$的信息定义如下: I(X=xi)=log2p(xi) I(X=x_i)=-log_2p(x_i) ​ $I(x)$用来表示随机变量的信息,$p(x_i)$指是当$x_i$发生时的概率。

  • 熵用来度量不确定性,熵越大,$X=x_i$的不确定性越大,反之越小。对于机器学习中的分类问题而言,熵越大即这个类别的不确定性更大,反之越小。
  • 信息增益在决策树算法中用来选择特征的指标,信息增益越大,这个特征的选择性越好。

2.3决策树

​ 决策树是一种树形结构,每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。  

3、灾害智能识别

3.1 地质灾害数据清洗与数据抽析。

​ 对不同GIS专题数据进行数据清洗与数据抽析。

etl_1

3.2 地质灾害数据标准化

​ 对清洗后的数据进行数据标准化处理,形成可标准化Input数据。

etl_2

3.3 地质灾害数据训练与预测

​ 利用标准化后的Input数据进行训练与预测。

ml_2

Copyright © 2020.经纬四方 all right reserved,powered by Gitbook该文章修订时间: 2020-02-12 15:13:36

results matching ""

    No results matching ""